scrapy -- CrawlSpider类
全部标签 关闭。这个问题需要debuggingdetails.它目前不接受答案。编辑问题以包含desiredbehavior,aspecificproblemorerror,andtheshortestcodenecessarytoreproducetheproblem.这将有助于其他人回答问题。关闭6年前。Improvethisquestion我在OSX10.11上的virtualenv中使用pip安装scrapy。当它安装密码时,它说:building'_openssl'extensioncc-fno-strict-aliasing-fno-common-dynamic-archi386-a
我对scrapy有疑问。在一个请求失败时(例如404,500),如何请求另一个替代请求?比如两个链接都可以获取价格信息,一个失败,自动请求另一个。 最佳答案 在请求中使用“errback”errback=self.error_handler其中error_handler是一个函数(就像回调函数一样),在此函数中检查错误代码并发出替代请求。参见scrapy文档中的errback:http://doc.scrapy.org/en/latest/topics/request-response.html
我已经使用Scrapy网站上提供的Ubuntu软件包安装了Scrapy。但是在开始一个Scrapy项目时scrapystartprojecttest我收到错误消息。Traceback(mostrecentcalllast):File"/usr/bin/scrapy",line5,infrompkg_resourcesimportload_entry_pointFile"build/bdist.linux-x86_64/egg/pkg_resources/__init__.py",line3084,inFile"build/bdist.linux-x86_64/egg/pkg_resou
我用python的scrapy工具写了一个python的爬虫。以下是python代码:fromscrapy.contrib.spidersimportCrawlSpider,Rulefromscrapy.contrib.linkextractors.sgmlimportSgmlLinkExtractorfromscrapy.selectorimportHtmlXPathSelector#fromscrapy.itemimportItemfroma11ypi.itemsimportAYpiItemclassAYpiSpider(CrawlSpider):name="AYpi"allowe
不完全确定这里的问题是什么。运行Python2.7.3和Scrapy0.16.5我创建了一个非常简单的Scrapy蜘蛛来测试连接到我的本地Polipo代理,这样我就可以通过TOR发送请求。我的爬虫基本代码如下:fromscrapy.spiderimportBaseSpiderclassTorSpider(BaseSpider):name="tor"allowed_domains=["check.torproject.org"]start_urls=["https://check.torproject.org"]defparse(self,response):printresponse.
我希望Scrapy不对我的请求进行URL编码。我看到scrapy.http.Request正在导入scrapy.utils.url,它导入了包含变量_ALWAYS_SAFE_BYTES的w3lib.url。我只需要向_ALWAYS_SAFE_BYTES添加一组字符,但我不确定如何在我的蜘蛛类中执行此操作。scrapy.http.Request相关行:fp.update(canonicalize_url(request.url))canonicalize_url来自scrapy.utils.url,scrapy.utils.url中的相关行:path=safe_url_string(_u
我正在尝试在MacOSXElCapitan上使用Scrapy。我安装了zsh,并尝试了所有可以在网上找到的方法来解决此问题。我也看过ScrapythrowsImportError:cannotimportnamexmlrpc_client无法解决我的问题!通过brew安装Python并添加“pipinstallscrapy”:➜DriverEBVwhichpython/usr/local/bin/python我的.zshrc包含以下行:exportPATH=/usr/local/bin:$PATHexportPYTHONPATH="/Library/Python/2.7/site-pa
我一直在尝试使用具有以下功能的Scrapy在Python中制作一个应用程序:restapi(我是用flask做的)监听所有爬取/抓取请求并在爬取后返回响应。(爬取部分足够短,这样连接就可以一直保持到爬取完成。)我可以使用以下代码执行此操作:items=[]defadd_item(item):items.append(item)#setupcrawlercrawler=Crawler(SpiderClass,settings=get_project_settings())crawler.signals.connect(add_item,signal=signals.item_pass
这是一篇很长的文章,但经过广泛研究后我找不到解决方案。我在OSX10.8上有一个Django1.4.1/Scrapy0.14.4混合项目,我使用Django项目的manage.py命令控制Scrapy,如here所述。.例如,调用pythonmanage.pyscrapycrawlexample_spider工作没有问题。现在我要设置scrapydweb服务来部署我的蜘蛛程序。但是,当我执行pythonmanage.pyscrapyserver然后我得到这个异常:scrapy.exceptions.NotConfigured:Unabletofindscrapy.cfgfiletoin
我有使用Scrapy框架编写的蜘蛛。我在让任何管道工作时遇到了一些麻烦。我的pipelines.py中有以下代码:classFilePipeline(object):def__init__(self):self.file=open('items.txt','wb')defprocess_item(self,item,spider):line=item['title']+'\n'self.file.write(line)returnitem我的CrawlSpider子类有这一行来激活这个类的管道。ITEM_PIPELINES=['event.pipelines.FilePipeline'